OpenAI presentó el jueves tres modelos de audio para su plataforma de desarrollo, con el objetivo de hacer que los agentes de software basados en voz sean más conversacionales y capaces de completar tareas en tiempo real.
El lanzamiento de la interfaz de programación de aplicaciones (API) permite que ChatGPT-maker vaya más allá de la transcripción y el chat, hacia agentes que pueden escuchar, traducir y actuar durante conversaciones en directo. Los nuevos modelos son GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. OpenAI ha indicado que están disponibles para probar en su entorno de desarrollo. GPT-Realtime-2 está diseñado para gestionar solicitudes más complejas, herramientas de llamadas, manejar interrupciones y mantener el contexto durante sesiones de voz más largas.
El segundo modelo admite la traducción de más de 70 idiomas a 13 idiomas de salida, y está dirigido a la atención al cliente, la educación y otros entornos. GPT-Realtime-Whisper proporciona conversión de voz a texto en tiempo real, lo que permite generar subtítulos, notas de reuniones y actualizaciones de flujo de trabajo mientras el orador habla. Entre los clientes que prueban los modelos se incluye el mercado inmobiliario en línea Zillow la agencia de viajes en línea Priceline y la empresa europea de telecomunicaciones Deutsche Telekom. El precio de GPT-Realtime-2 comienza en 32 dólares por millón de tokens de entrada de audio, GPT-Realtime-Translate cuesta 0,034 dólares por minuto y GPT-Realtime-Whisper 0,017 dólares por minuto.
Reportaje de Anhata Rooprai en Bengaluru; Edición de Vijay Kishore.
Fuente: reuters


